Dendrogram এবং Linkage Methods হল Hierarchical Clustering (হায়ারারকিক্যাল ক্লাস্টারিং) এর গুরুত্বপূর্ণ উপাদান। Hierarchical Clustering একটি জনপ্রিয় ক্লাস্টারিং পদ্ধতি যেখানে ডেটাকে ক্লাস্টারগুলোতে ভাগ করা হয় এবং এই ক্লাস্টারগুলো একটি ডেনড্রোগ্রামের মাধ্যমে প্রদর্শিত হয়। এখানে আমরা Dendrogram এবং Linkage Methods-এর মৌলিক ধারণা এবং তাদের কার্যক্রম নিয়ে আলোচনা করব।
Dendrogram
Dendrogram হলো একটি গাছের মতো ডায়াগ্রাম যা hierarchical clustering এর মাধ্যমে ডেটা পয়েন্টের ক্লাস্টারিং সম্পর্ক দেখায়। এটি একটি গাছের শাখার মতো গঠন তৈরি করে যেখানে প্রতিটি শাখা একটি ক্লাস্টার বা গ্রুপের প্রতিনিধিত্ব করে। Dendrogram একটি ভিজ্যুয়াল টুল হিসেবে ব্যবহৃত হয় যা দেখায় কিভাবে ছোট ছোট ক্লাস্টারগুলো একত্রিত হয়ে বড় ক্লাস্টারে পরিণত হয়।
Dendrogram এর কার্যক্রম:
- Dendrogram-এর শাখাগুলো ক্লাস্টারগুলোর মধ্যে সম্পর্ক বা ফিউশন (fusion) দেখায়। প্রতিটি নোড (node) একটি ক্লাস্টার, এবং যখন দুটি ক্লাস্টার একত্রিত হয়, তখন একটি নতুন শাখা তৈরি হয়।
- Dendrogram-এর শাখাগুলোর দূরত্ব (vertical distance) linkage distance বা distance between clusters নির্দেশ করে। বড় দূরত্ব মানে দুটি ক্লাস্টারের মধ্যে অনেক পার্থক্য এবং ছোট দূরত্ব মানে দুটি ক্লাস্টার খুব কাছাকাছি।
Dendrogram এর সুবিধা:
- এটি সহজে ক্লাস্টারিং সম্পর্ক এবং ডেটার গঠন দেখতে সহায়ক।
- Threshold নির্ধারণ করে ক্লাস্টার সংখ্যা চয়ন করা যায়, অর্থাৎ একটি নির্দিষ্ট উচ্চতায় কাটিং করে ক্লাস্টারের সংখ্যা ঠিক করা যায়।
Dendrogram এর উদাহরণ:
যত বেশি দুইটি ক্লাস্টার একত্রিত হবে, তত বেশি ডেনড্রোগ্রামের শাখা একত্রিত হবে এবং সেই শাখার উপর একটি লাইন থাকবে যা ঐ ক্লাস্টারের মার্জিন দেখায়। একটি গাছের শাখার মতো উপস্থাপন।
Linkage Methods
Linkage Methods হলো একাধিক ডেটা পয়েন্টের মধ্যে distance metric ব্যবহার করে ক্লাস্টারগুলোর মধ্যে সম্পর্ক নির্ধারণ করার পদ্ধতি। এই পদ্ধতিতে, ক্লাস্টারগুলির মধ্যে দূরত্ব বা সম্পর্ক গণনা করা হয় এবং এর ভিত্তিতে ক্লাস্টারিং করা হয়। Hierarchical clustering এর ক্ষেত্রে বিভিন্ন ধরনের linkage methods ব্যবহৃত হয়, যা ক্লাস্টারিং প্রক্রিয়া পরিচালনা করে।
Linkage Methods এর ধরণ:
- Single Linkage (Min Linkage):
- Single linkage পদ্ধতিতে, দুটি ক্লাস্টারের মধ্যে দূরত্ব নির্ধারণ করা হয় তাদের সবচেয়ে কাছাকাছি দুটি ডেটা পয়েন্টের মধ্যে দূরত্ব হিসেবে।
- অর্থাৎ, দুটি ক্লাস্টারের মধ্যে min distance গণনা করা হয়।
- Advantages: এটি ছোট বা সংকীর্ণ ক্লাস্টারগুলির জন্য উপযুক্ত।
- Complete Linkage (Max Linkage):
- Complete linkage পদ্ধতিতে, দুটি ক্লাস্টারের মধ্যে দূরত্ব নির্ধারণ করা হয় তাদের সবচেয়ে দূরবর্তী দুটি ডেটা পয়েন্টের মধ্যে দূরত্ব হিসেবে।
- অর্থাৎ, দুটি ক্লাস্টারের মধ্যে max distance গণনা করা হয়।
- Advantages: এটি সাধারণত সমান আকারের ক্লাস্টার তৈরি করে এবং ছোট আকারের ক্লাস্টারের জন্য ভাল।
- Average Linkage:
- Average linkage পদ্ধতিতে, দুটি ক্লাস্টারের মধ্যে দূরত্ব নির্ধারণ করা হয় তাদের সমস্ত ডেটা পয়েন্টের মধ্যে গড় (average) দূরত্ব হিসেবে।
- অর্থাৎ, দুটি ক্লাস্টারের সমস্ত পয়েন্টের মধ্যে গড় দূরত্ব গণনা করা হয়।
- Advantages: এটি সাধারণত সঠিকভাবে ক্লাস্টারের গঠন প্রদর্শন করে এবং উচ্চমানের ক্লাস্টার তৈরি করতে সহায়ক।
- Ward's Linkage:
- Ward's linkage পদ্ধতিতে, দুটি ক্লাস্টার একত্রিত করার সময় তাদের মধ্যে ক্ষতির পরিমাণ কমাতে চেষ্টা করা হয়, অর্থাৎ ক্লাস্টারিং প্রক্রিয়ায় সর্বনিম্ন গঠনগত ক্ষতি ঘটানো হয়।
- এটি একটি variance minimization পদ্ধতি, যেখানে দুইটি ক্লাস্টার একত্রিত হলে তাদের মধ্যে মোট ভ্যারিয়েন্সের পরিমাণ সবচেয়ে কম হবে।
- Advantages: এটি সাধারণত সবচেয়ে ভাল এবং সুষম ক্লাস্টার তৈরি করে, যেখানে ক্লাস্টারগুলি সর্বোত্তমভাবে বিচ্ছিন্ন থাকে।
Scikit-Learn এ Dendrogram এবং Linkage Methods ব্যবহার
Scikit-Learn এবং SciPy লাইব্রেরি ব্যবহার করে Hierarchical Clustering এবং Dendrogram তৈরি করা যায়। উদাহরণস্বরূপ, scipy.cluster.hierarchy মডিউলটি linkage এবং dendrogram তৈরি করার জন্য ব্যবহৃত হয়।
Dendrogram তৈরি করার উদাহরণ:
import numpy as np
import scipy.cluster.hierarchy as sch
import matplotlib.pyplot as plt
# কিছু কৃত্রিম ডেটা তৈরি করা
X = np.random.rand(10, 2)
# Linkage method ব্যবহার করে ক্লাস্টার তৈরি করা
Z = sch.linkage(X, method='ward') # Ward's linkage method
# Dendrogram তৈরি করা
sch.dendrogram(Z)
plt.show()
Linkage Methods এর মধ্যে নির্বাচন:
এখানে method='ward' ব্যবহার করা হয়েছে, কিন্তু আপনি চাইলে method='single', method='complete', অথবা method='average' ব্যবহার করতে পারেন।
সারাংশ
- Dendrogram হলো একটি হায়ারারকিক্যাল ক্লাস্টারিং সম্পর্ক প্রদর্শনকারী গাছের মতো গঠন, যা ক্লাস্টারিং প্রক্রিয়ায় ডেটা পয়েন্টগুলোর সম্পর্ক দেখায়।
- Linkage Methods হলো ক্লাস্টারগুলির মধ্যে সম্পর্ক নির্ধারণ করার পদ্ধতি, যেমন Single Linkage, Complete Linkage, Average Linkage, এবং Ward's Linkage।
- Dendrogram ব্যবহার করে ক্লাস্টারের মধ্যে সম্পর্ক এবং দূরত্ব ভিজ্যুয়ালাইজ করা যায়, যা ডেটার গঠন এবং ক্লাস্টারিং পদ্ধতির বাছাই করতে সাহায্য করে।
Read more